1 Úvod

V této seminární práci budeme využívat prostorové modely pro modelování a predikovaní cen na trhu pražských nemovistostí. V návaznasti na \(\textit{Toblerovo první pravidlo geografie o podobnosti sousedicích jednotek}\) nejdříve ověřujeme prostorovou závislost v cenách přažských bytů. Následně aplikujeme neprostorové a prostorové modely k oveření stavených hypotéz.

Ukazuje se, že využití prostorových modelů dokáže zlepšít přesnost predikce cen nemovitostí. Dále také s využitím neprostorových modelů identifikováváme \(\textit{„honosné“}\) clusteri, tj. lokace ve kterých může být cena nemovistí více než dvojnásobné čistě z důvodů umístění.

1.1 Stanovení Hypotéz

Formálně oveřujeme následující stanovené hypotézi:

\[H_{1}: \textit{Z důvodu prostorové autokorelace disponují prostorové modely lepší predikční schopnosti.}\]

\[H_{2}: \textit{Historické centrum prahy představuje hlavní „honosný“ cluster.}\]

\[H_{3}: \textit{Novostavba výrazně zvýší cenu}\]

2 Dataset a zdroj.

Celý dataset v této studii byl získán z internetové stránky: https://www.sreality.cz/. Z důvodů přesnosti analýzy a možné \(\textit{statistické inference}\) je ale nezbytné stanovit si následující předpoklady a nemovitostech inzerovaných na zmíněné stránce:

\[1) \textit{ Stránka sreality.cz představuje reprezentativní soubor všech pražských bytů.}\] \[2) \textit{ Veškeré charakteristiky (cena, poč. pokojů, atd.) jsou v každém inzerátu přesné a ve stejných jednotkách. }\]

2.1 Základní charakteristiky

Celkový dataset byl získán z internetových stránek technikou \(\textit{web scraping}\) s využitím programovacího jazyku python. Po extrakci dat z internetové stránky v den 10. března 2020 bylo získáno zhruba \(\textbf{4012}\) nemovistostí, kde každé pozorování obsahovalo více než 80 \(\textit{proměných}\).

Takto získaný dataset byl následně vyfiltrován a tranformován. Byly odstraněné promměné, které nepovažujeme pro naši analyzů za vhodné. Sem patří např. proměnné typu: \(\textit{identifiční klíče a čísla v databázi, cluster databáze, primární klíče atd.}\).

Naopak proměnné, které jsou pro naší analýzu nezbytné jako: \(\textit{Cena, počet pokojů, metry, typ budovy, souřadnice, atd.}\) byly v datasetu ponechány. Celkový dataset tedy obsahuje následující proměnné:

\[\textit{Cena, Metry čtverečný, Počet pokojů, Mezon, kuchyňský kout, Panel, Balkón/Terasa, Novostavba}\]. A z důvodů prostorových data také \(\textit{Souřadnice}\).

Nakonec bylo nezbytné odstranit všechna pozorování, která obsahovala chybějící záznam v jakékoliv proměnné. Celkový finální dataset tedy obsahuje \(\textbf{2984}\) pozorování.

2.1.1 Charakteristiky proměnných

2.1.1.1 Základní statistiky proměnných

price Meters Rooms Mezone KK panel balcony_or_terrase novostavba
9840000 93 3 0 1 0 1 0
3980000 55 3 0 0 1 1 0
5958150 59 2 0 1 0 0 1
4657156 76 1 0 1 0 0 1
5466765 64 2 0 1 0 1 1
5466765 64 2 0 1 0 1 1

2.1.1.2 Distribuce proměnných

2.1.1.3 Korelace mezi proměnnými

price Meters Rooms Mezone KK panel balcony_or_terrase novostavba
price 1.0000000 0.7898035 0.5558636 0.1352582 -0.0029982 -0.2354115 0.1809857 0.0259425
Meters 0.7898035 1.0000000 0.7256933 0.1877708 -0.0808172 -0.1393384 0.2142180 0.0158588
Rooms 0.5558636 0.7256933 1.0000000 0.1295857 -0.4544417 0.1124233 0.0656613 -0.1401244
Mezone 0.1352582 0.1877708 0.1295857 1.0000000 0.0194664 -0.0467605 0.0550130 -0.0025503
KK -0.0029982 -0.0808172 -0.4544417 0.0194664 1.0000000 -0.2646404 0.1849925 0.2407025
panel -0.2354115 -0.1393384 0.1124233 -0.0467605 -0.2646404 1.0000000 -0.3017103 -0.2428932
balcony_or_terrase 0.1809857 0.2142180 0.0656613 0.0550130 0.1849925 -0.3017103 1.0000000 0.2384205
novostavba 0.0259425 0.0158588 -0.1401244 -0.0025503 0.2407025 -0.2428932 0.2384205 1.0000000

2.2 Distribuce pozorování v prostoru

V rychlosti nahlédněme na rozmístění pražských nemovitostí.

Abychom částěčně vzali vpotaz prostorovu závislost (Krom. prostorových modelů), lze využít proměnné \(\textit{longitude, latitude}\) a zařadit je do regresního modelu.

Jelikož jsou obě proměnné ale nevhodně spojité využijeme Clusterovací algoritmus \(\textit{K-means}\), který přiřadí každé pozorování do určité kategorie, to modelu bude následně vstupovat \(\textit{dummy}\) hodnota tohoto clusteru, pokud bude vycházet statisticky významný, lze považovat prostorovou závislost ze velmi silnou a volíme modely prostorové metodologie.

3 Metotologie a modely

Pro oveření našich stanovených hypotéz je nezbytné sestavit konkrétní model, který budeme odhadovat.

Formálně využijeme model, který má následující tvar:

\[\textit{log(cena)} = \beta_{0} + \beta_{1}pokoje + \beta_{2}log(metry) + \beta_{3}mezon + \beta_{4}kk + \beta_{5}panel + \beta_{6}terasa/balkon + \beta_{7}novostavba + \varepsilon.\]

Model budeme odhadovat několika metodymi: \(\textit{OLS, Kvantilová regrese}\) a prostorové modely: \(\textit{spatial lag, spatial error model}\).

Dependent variable:
log(price)
OLS quantile
regression
OLS OLS - kmeans Quant reg. Quant reg. - Kmeans
(1) (2) (3) (4)
Rooms 0.061*** 0.073*** 0.053*** 0.078***
(0.010) (0.009) (0.009) (0.008)
log(Meters) 0.808*** 0.762*** 0.818*** 0.727***
(0.021) (0.019) (0.019) (0.018)
Mezone -0.003 -0.041 0.0001 -0.043**
(0.031) (0.028) (0.022) (0.020)
KK 0.117*** 0.161*** 0.095*** 0.152***
(0.016) (0.014) (0.017) (0.012)
panel -0.324*** -0.197*** -0.305*** -0.220***
(0.016) (0.016) (0.012) (0.014)
balcony_or_terrase -0.007 0.038*** -0.00004 0.034***
(0.011) (0.010) (0.010) (0.009)
novostavba -0.011 0.008 0.018* -0.0001
(0.011) (0.011) (0.011) (0.009)
factor(KMEAN)2 -0.234*** -0.230***
(0.015) (0.012)
factor(KMEAN)3 -0.213*** -0.182***
(0.012) (0.010)
factor(KMEAN)4 -0.232*** -0.207***
(0.013) (0.012)
factor(KMEAN)5 -0.367*** -0.338***
(0.019) (0.015)
Constant 12.145*** 12.371*** 12.111*** 12.504***
(0.065) (0.059) (0.056) (0.053)
Observations 2,984 2,984 2,984 2,984
Adjusted R2 0.748 0.794
Residual Std. Error 0.266 (df = 2976) 0.241 (df = 2972)
Note: p<0.1; p<0.05; p<0.01


Z výstupu výše vidíme, že proměnné, které zachycují umístění nemovistosti v konkrétním clusteru jsou statisticky významné (formálně musíme provádět testy hokoskedasticity, ale i v případě robustních odhadů vychazí signifikantní).

Pro oveření stability koeficientů pro určité kvantily můžeme nahlédnout na podobnost odhadů mezi metodu nejmenších čtverců a kvantilovou regresí:

Vidíme, že většina proměnných je pro různé hodnoty kvantilů stabilní. Z proměnných, které za stabilní považovat nelze vidíme proměnou \(\textit{Novostavba}\), která působí jako statisticky nevýznamná.

Jelikož jsme prokázali významný faktor umístění nemovistosti, dle statistické významnosti proměnných \(\textit{K-means}\) přejdeme nyní k prostorovým modelům.

3.0.1 Modely Prostorové ekonometrie (Relace sousednosti)

V prostorových modelech je nezbytné nadefinovat si \(\textit{Matici sousednosti W}\), která identifikuje, které jednotky považujeme za sousední a které již nikoliv:

Níže nahlédněme na několik způsobů generování vztahů sousednosti. Níže vidíme výsledky \(\textit{Moranova I}\) testů, které potvrzují přítomnost prostorové autokorelace pro všechny námi testované relace sousednosti.

3.0.1.1 Maximální počtu sousedů (4 jednotky):

I Statistic Variance p-value
0.4253204 0.0001322 0

3.0.1.2 Maximální počtu sousedů (7 jednotky):

I-Statistic Variance p-value
0.3988883 7.7e-05 0

3.0.1.3 Maximální vzdálenosti (500 metrů):

I-Statistic Variance p-value
0.323127 6.13e-05 0

3.0.1.4 Maximální vzdálenosti (900 metrů):

I-Statistic Variance p-value
0.2811638 2.46e-05 0

3.0.2 Modely Prostorové ekonometrie Spatial Lag, Spatial Error

V této práci využijeme 2 základní modely prostorové ekonometrie, které definujeme následovně:

\(\textit{Spatial Lag model}\) má následující podobu:

\[y = \rho Wy + X \beta + \varepsilon\]

ve které provádíme kontrolu prostorové autokorelace skrze vysvětlující proměnné.

Druhý \(\textit{Spatial Error model}\) má předpis:

\[y = X\beta + u,\] \[u = \lambda Wu + \varepsilon\]

## 
## Call:spatialreg::errorsarlm(formula = formula, data = data, listw = listw, 
##     na.action = na.action, Durbin = Durbin, etype = etype, method = method, 
##     quiet = quiet, zero.policy = zero.policy, interval = interval, 
##     tol.solve = tol.solve, trs = trs, control = control)
## 
## Residuals:
##        Min         1Q     Median         3Q        Max 
## -3.7243358 -0.0850286 -0.0018684  0.0939284  0.8642820 
## 
## Type: error 
## Coefficients: (asymptotic standard errors) 
##                      Estimate Std. Error  z value  Pr(>|z|)
## (Intercept)        12.4649297  0.0557669 223.5183 < 2.2e-16
## Rooms               0.0822203  0.0073618  11.1685 < 2.2e-16
## log(Meters)         0.6854887  0.0165968  41.3024 < 2.2e-16
## Mezone             -0.0675724  0.0231404  -2.9201  0.003499
## KK                  0.1764788  0.0122585  14.3965 < 2.2e-16
## panel              -0.1193730  0.0152975  -7.8034 5.995e-15
## balcony_or_terrase  0.0726292  0.0088385   8.2174 2.220e-16
## novostavba          0.0731623  0.0102884   7.1111 1.151e-12
## 
## Lambda: 0.82614, LR test value: 1422, p-value: < 2.22e-16
## Asymptotic standard error: 0.015343
##     z-value: 53.846, p-value: < 2.22e-16
## Wald statistic: 2899.4, p-value: < 2.22e-16
## 
## Log likelihood: 428.0955 for error model
## ML residual variance (sigma squared): 0.040939, (sigma: 0.20233)
## Number of observations: 2984 
## Number of parameters estimated: 10 
## AIC: -836.19, (AIC for lm: 583.83)
## 
## Call:spatialreg::lagsarlm(formula = formula, data = data, listw = listw, 
##     na.action = na.action, Durbin = Durbin, type = type, method = method, 
##     quiet = quiet, zero.policy = zero.policy, interval = interval, 
##     tol.solve = tol.solve, trs = trs, control = control)
## 
## Residuals:
##        Min         1Q     Median         3Q        Max 
## -3.7522358 -0.1077535 -0.0019765  0.1064843  0.9905347 
## 
## Type: lag 
## Coefficients: (asymptotic standard errors) 
##                      Estimate Std. Error  z value  Pr(>|z|)
## (Intercept)         4.5540401  0.1974039  23.0697 < 2.2e-16
## Rooms               0.0814705  0.0078487  10.3802 < 2.2e-16
## log(Meters)         0.6671794  0.0176061  37.8947 < 2.2e-16
## Mezone             -0.0482619  0.0252222  -1.9135 0.0556880
## KK                  0.1603278  0.0128197  12.5063 < 2.2e-16
## panel              -0.1633290  0.0136873 -11.9329 < 2.2e-16
## balcony_or_terrase  0.0302655  0.0088604   3.4158 0.0006359
## novostavba          0.0475048  0.0095091   4.9957 5.861e-07
## 
## Rho: 0.50895, LR test value: 1081, p-value: < 2.22e-16
## Asymptotic standard error: 0.012945
##     z-value: 39.316, p-value: < 2.22e-16
## Wald statistic: 1545.8, p-value: < 2.22e-16
## 
## Log likelihood: 257.5709 for lag model
## ML residual variance (sigma squared): 0.048344, (sigma: 0.21987)
## Number of observations: 2984 
## Number of parameters estimated: 10 
## AIC: -495.14, (AIC for lm: 583.83)
## LM test for residual autocorrelation
## test value: 520.78, p-value: < 2.22e-16

Dle parametrů prostorové autokorelace u obou modelů výše \(\lambda, \rho\) je patrné, že uvažované modely zachycují DGP lépe, než modely bez prostorové závislosti, náhlédněme na metriky všech odhadnutých modelů.

Využijeme následující metriky: \(\textit{AIC, log-likel}\) a \(R_{pse}\). Poslední z uvažovaných metrik je \(\textit{pseudo R}\), které je spočteno následujícím způsobem: \[R_{pse.} = corr(y, \hat y)^2\], využití této metriky nám uvožní zachytit predikční shcopnosti každého modelu.
OLS OLS_Kmeans Quantile Quantile_Kmeans Spatial.Error Spatial.Lag
AIC 583.827 -15.779 29.727 -754.668 -836.191 -495.142
Log-like. -282.913 20.889 -6.863 389.334 428.095 257.571
R 0.748 0.795 0.748 0.794 0.855 0.828
n 2984.000 2984.000 2984.000 2984.000 2984.000 2984.000

Vydíme, že všechny hodnoty užitých metrik jsou nejlepší pro \(\textit{Spatial Error model}\), který tedy využijeme pro statistickou inferenci. Výhodou modelu \(\textit{Spatial Error}\) je skutečnost, že koeficienty lze také přímo interpretovat jako mezní efekty.

3.0.3 Rezidua a predikce všech modelů

3.0.3.1 Skutečné a predikované hodnoty

3.0.3.2 Histogram reziduí

3.0.3.3 Rezidua v prostoru (Honosné Clustery)

OLS model není zcela kvalitní na oceňování nemovitostí na pražském trhu, neboť nebere v potaz prostorové závislosti. Nicménně rezidua modelu mohou resp. jejich rozmístění může představovat zajímavý indetifikátor.

Nejdřívě spočítame procentuální chyby predikce pro každé pozorování a následně dle intervalů hodnoty diskretizujeme.

Při pohledu na graf níže vidíme, že nemovistosti vyskytující se v historickém centru Prahy (Staroměstské náměstí a přilehlé okolí)

Ceny nemovistostí jsou zde více jak dvojnásobné (více jak 100% rozdíl predikce) čistě z důvodů výskytů nemovistostí v historické části. Abychom tuto nevyrovnanost v reziduích odstranili, bylo by nutné každé nemovisotsti v tomto centru přidat novu kontrolní proměnnou \(\textit{Historické centru}\), která by nabývala hodnoty 1, pro nemovitosti v \(\textit{Honosném Clusteru}\). Užití modelů bez prostorové závislosti nám umožnuje takovéto clustery identifikovat.

Na Druhé straně pokud modelujume prostorovu závislost a dovolíme sousedním hodnotám \(\textit{„Vzájemné ovlivňování“}\) vydíme, že výrazný historický shluk v historickém centru Prahy vymizí.

4 Závěrem

V tétu studiu jsme modelovaly ceny Pražských bytů. Uvažujeme že cena nemovistosti není dána pouze dílčími charakteristikami jako např. \(\textit{velikost, počet pokojů}\), ale zárověň také funkce lokality. Z tohoto důvodu využíváme prostorové modely.

Nyní k zhodnocení stanovených hypotéz:

\[H_{1}: \textit{Z důvodu prostorové autokorelace disponují prostorové modely lepší predikční schopnosti.}\]

Jak na základě \(\textit{Prostorového clusterování (OLS_Kmean)}\) tak také užitím \(\textit{Moranova testu}\) a také na základě užitých metrik\(\textit{AIC, log-likel}\), \(R_{pse.}\) se naše hypotéza potvrzuje.

\[H_{2}: \textit{Historické centrum prahy představuje hlavní „honosný“ cluster.}\] Pokud nahlédneme na rezidua v prostoru z OLS modelu vidíme a výše popisujeme výrazný \(\textit{prostorový shluk}\) viz. výše., tedy I tuto stanovenou hypotézu v závěru potvrzujeme

\[H_{3}: \textit{Novostavba výrazně zvýší cenu}\] V vyhodnocení této hypotézy a statistické inference využijeme \(\textit{Spatial Error modelu}\), kter7 se jeví jako nejsilnější.

proměnná \(\textit{Novostavba}\) vychazí statisticky signifikantní (i na 1% hladinně) a nabývá hodnoty 0.0731623, tedy předpokládáme, že pokud se jedná o novostavbu bude cenna vyšší zhruba o 7.3 %.